【心得】白话大数据与机器学习
白话大数据与机器学习
书名:白话大数据与机器学习
作者:会扬 / 卫峥 / 尹会生
出版社:机械工业出版社
推荐:7.5(1-10)
类型:快餐(精读/快餐)
短评:的确比较白话,但深入浅出还没达到
拓展:《数据化决策:数据分析与高效经营》 、《数据、模型与决策》
导图
为何读
工作上部门间合作,有时会遇到一句话“谁急谁处理”。
借用这句来说明,我看这书,因为我急。目前不管是工作中还好是研读文章,我都需快速获取数据,快速处理数据的能力。比如,大文豪40万字的文章,我要统计词频,无法手动一个个去计数。
关注点
如之前提及,我的职业发展路径是往数据分析支持决策发展。因此需不断的对行业发展状况做侦查。这个行业趋势如何,岗位需求量如何,要求技能有哪些等等。
本书的第1章就有比较详细地介绍大数据产业的基础信息。我的目标发展方向,就是文中提及的数据分析。
数据分析的工具,我擅长的是Excel。但Excel只能处理加工过的数据,原始数据百万条,Excel就无能为力了。
去年年底学习使用Spark的SQL,就是书中第16章介绍的Spark。打通了数据源后,以前需几天的提数挖需求,再分析,现在半天就可以搞定了。棒!
我是得陇望蜀的人。我又思考,数据都是攻城狮们存好的。而有些数据,我希望自己爬取;有些文本,我希望能做分析。可以做到吗?
这本书就是一张地图,他无法直接给我宝藏,但我给我指明藏宝的方位。目前地图显示,我的需求是可以实现的。
比如,书中第14章介绍的文本挖掘,就是我在《【研读】大文豪曼因斯坦文章——把握主线》用的词频分析。
那次我只是网上搜索尝试。现在我终于知道如何基础原理了,也了解如果要深入学习,应该学哪方面的东西。
感悟
王国维在《人间词话》写到学习的三境界,共勉:
“昨夜西风凋碧树,独上高楼,望尽天涯路。”
“衣带渐宽终不悔,为伊消得人憔悴。”
“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。”